dskjal
広告
広告

Z Image Turbo を ComfyUI で実行する+プロンプトガイド

カテゴリ:deeplearning

Z Image Turbo はベースモデルではなく蒸留モデル(DMD)であることに注意。

軽量モデルの中ではダントツの基本性能を持っており、SDXL 以降のモデルをファインチューンして使うなら Z Image のベースモデル一択だろう。

Automatic1111 互換の forge-neo でも実行できる。

Qwen Image Edit や FLUX.2 は編集も生成もできるが、Z Image はそうではない。

base が公開されれば、「Turbo - base」を LoRA 化することで蒸留 LoRA を作成可能。base に自作 LoRA と蒸留 LoRA を適用すれば、自作 LoRA でも高速高画質な生成が可能。

目次

特徴

公式モデルなので当然 NSFW やキャラ、アーティストは認識しない。

欠点

必要スペック

モデル(12 GB)+テキストエンコーダー(8 GB)+VAE(0.3 GB)で 20 GB なので RAM 32 GB で足りる。

最新の ComfyUI は VRAM の量は重要ではなくなっている。なぜなら RAM にモデルをロードして、必要な分を VRAM に転送して処理するようなアルゴリズムになったからだ。画像生成 AI は演算ボトルネックなので、RAM からモデルを転送しつつ推論しても生成速度はほとんど低下しない。

ComfyUI のバージョンは 0.3.75。

画像の VRAM 使用量

512 x 512 = 0.1 GB。

解像度VRAM使用量
(GB)
512 x 5120.1
1024 x 10240.4
1024 x 15360.6
1536 x 15360.8
1536 x 20481.2
2048 x 20481.6

モデル

配置場所モデル
models/unetz_image_turbo_bf16.safetensors
models/text_encodersqwen_3_4b.safetensors
models/vaeae.safetensors

ワークフローは ComfyUI_examples の画像を ComfyUI にドラッグする。

AIO は SeeSee21/Z-Image-Turbo-AIO

テキストエンコーダーのGGUF は Qwen/Qwen3-4B-GGUF

実写モデルのディティールを強化する VAE の Owen777/UltraFlux-v1がある。

RTX 4000 以降を使用している場合、fp8_scaled を使うと推論速度が 50% 以上高速になるのでおすすめ。RAM が少ない環境なら GGUF や DFloat11 が選択肢に入る。

DFloat11 は bf16 をロスレス圧縮し、モデルのメモリ使用量を 30% 削減する。VRAM 12 GB に Z Image のモデルをすべて載せられる。しかし DFloat11 は生成速度は低下する可能性が高い。

量子化URL
GGUFjayn7/Z-Image-Turbo-GGUF
fp8_scaledKijai/Z-Image_comfy_fp8_scaled
fp8_scaledZ-image Turbo [TensorCoreFP8]
DFloat11z_image_turbo_bf16-DF11.safetensors
SVDQuantDisty0/Z-Image-Turbo-SDNQ-uint4-svd-r32

LoRA

ai-toolkit がサポートしている。ostris/zimage_turbo_training_adapter が必要。v2 は LoRA のランクと学習時間とを増やしたバージョンでこちらが推奨されている。

しかし蒸留モデルの Z Image Turbo でファインチューンが上手くいくかわからないので、ベースモデルが公開されるまで待った方がいい。

ai-toolkit は block swap を実装しているので低 VRAM(それでも 12 GB はあった方がいい)でも学習は可能。

ostris/zimage_turbo_training_adapter は何をしているのか?

zimage_turbo_training_adapter は、ただの Z Image Turbo で生成された画像を学習させた LoRA だ。しかし普通に学習させたので蒸留能力はなくなっている。

ここで普通に LoRA を学習させる。すると蒸留能力のなくなった LoRA ができる。自作の LoRA から zimage_turbo_training_adapter を引き算すると、概念だけが抽出できる。

この概念だけを抽出したものを Z Image Turbo に適用することで、蒸留能力を維持した状態で LoRA を適用できる。

ただし、Z Image Turbo は「蒸留と同時に強化学習+蒸留後の RLHF」を実施しているので、追加学習の量が多いほど画質が劣化してしまう欠点がある。

クラウドでの学習

クラウドなら1回 1,000 円未満で LoRA が作成できるので、LoRA を量産するのでない限り GPU を買い替える必要はない。クラウドは VRAM の量が多く、より高解像度の画像で学習できるので品質も良くなる。

クラウド+ ai-toolkit での学習方法は以下の動画を参照。

LoRA

de turbo

ostris/Z-Image-De-Turbo は Turbo で生成した画像で普通に学習させ蒸留を無くしたもの。Z Image Base が公開されるまではこれをベースに LoRA を作成できる。

学習データが偏っているので公式の Base より性能は低くなる。

実行時間

環境

共通設定

実行時間

解像度推論速度
(s/it)
RAM 使用量の
ピーク(GB)
1,024 x 1,0245.230
1,536 x 1,0247.230
1,536 x 1,53610.730
2,048 x 1,53616.130

高速生成

4ステップ生成は細部の甘さが目立つが、プロンプトの検証では役に立つ。上記の施策を適用した RTX 5090 は数秒で 2k の画像を生成する。

LoRA が作成できないうちは、Z Image Turbo で3ステップで生成後に SDXL で画風変換する使い方が効率的。

Controlnet

Comfy UI のバージョンは ComfyUI Version: v0.4.0-36-gbc606d7d | Released on '2025-12-16'。

Z-Image-Turbo-Fun-Controlnet-Union.safetensors を models/model_patches に配置。

ModelPatchLoader ノードで Controlnet をロードし、ZImageFunControlnet や QwenImageDiffsynthControlnet ノードで適用。Get Image Size ノードで Controlnet の画像と生成画像との解像度を一致させると便利。

ワークフロー

ワークフロー

OpenposePreprocessor ノードや CannyEdgePreprocessor をインストールすると画像から Controlnet 用の画像を生成できる。

Controlnet の画質改善

Controlnet を強く効かせるには Strength を1にするしかないが、そうすると画質は悪化する。以下の対策がある。

外部リンク

2025/12/13 のパッチで 2.0 に対応

プロンプトガイド

否定形を使わない

描いてほしくないものはネガティブプロンプトに入力する。ただし推論時間が2倍になる。なお Turbo のような蒸留モデルはネガティブプロンプトと相性が悪い。

否定形を使う方法

あいまいな形容詞を避ける

✖: beautiful girl

〇:A girl with flowing silver hair that catches the moonlight

記述した方がいい項目

項目
位置関係standing at the top of stairs, sitting under the tree
視線looking down at viewer, gazing upward at the sky
感情with a confident smile, mysterious expression
空気感in a dreamlike atmosphere, surrounded by magical sparkles
質感silk-like hair, crystalline dress
動きhair swaying in the breeze, petals falling around her

構造化する

markdown で構造化するとプロンプトが無視される確率が下がる。

悪い例
She says "セリフ1" in a speech bubble in the left top.
She says "セリフ2" in a speech bubble in the left middle.
She says "セリフ3" in a speech bubble in the left bottom.
良い例
# speech bubble
There are three speech bubbles.
- speech bubble 1 (left top): "セリフ1"
- speech bubble 2 (left middle): "セリフ2"
- speech bubble 3 (left bottom): "セリフ3"

その他のプロンプト例

# person
There are three persons.
- person 1 (left): a girl, short red hair, blue eyes, sitting on a stool
- person 2 (middle): a boy, short brown hair, grey eyes, standing, v sign
- person 3 (right): a girl, long silver hair, red eyes, sitting on a sofa, holding a card with the word "test" written on it.
# person
There are five persons. From left to right
- person 1: a girl, short red hair, blue eyes, sitting on a stool
- person 2: a boy, short brown hair, grey eyes, standing, v sign
- person 3: a girl, long silver hair, red eyes, sitting on a sofa, holding a card with the word "test" written on it.
- person 4: a boy, green eyes, wearing a baseball cap, sitting
- person 5: a girl, brown eyes, long hair
# background
In the luxury interior.
a king size bed, a disheveled sheets, a disheveled satin dress, a lamp on a bedside table, a pillow and a large window with a view from a high-rise building in the background.
# background
## left
There is a bookshelf, many piled books and a potted plant.
## middle
There is a window, curtains and a bed.
## right
There is a book and a cup on a desk.
# style
Highly detailed illustration style blending anime aesthetics with painterly realism.

Edit

編集プロンプトには2種類ある。編集後のみをプロンプトに入れる方法と、差分を指定する方法だ。Z Image Edit はどちらも対応している。ピンポイントで画像を修正する場合は差分指定、参考画像として入力する場合は編集後のみを指定する方法を使う。

プロンプトエンハンサーを使う

LLM を使って不足している情報を補わせる。ローカルでもクラウドでも可能。

ユーザーの入力したプロンプトを構造化して、*英語で*出力してください。情報が不足している場合は、アシスタントが自由に記述してください。
style of painting は以下の中からひとつ選んでください:photo realistic, anime, illustration, digital painting。
camera position は high angle, eye level, waist level, low angle から選択してください。
shot size は close up, medium shot, wide shot, full shot, long shot から選択してください。
*shot size で close up か medium shot かを選択した場合は、foot: の項目を削除してください*。
foot は barefoot か靴を履かせるかを選択してください。靴を履かせる場合はどのような靴かどのような色かを書いてください。
location は indoor, outdoor から選択してください。

出力は編集後の構造化されたプロンプトのみにしてください。英語で出力してください。

# ユーザーの入力したプロンプト

女の子が室内で立っている。

# output
# style of painting
- 

# camera
- camera position:
- shot size:

# person
- garment:
- foot: 
- pose:
- hair length:
- facial expression:

# background
- location: 
## left
-
## middle
- 
## right
-

# settings
- time of day: 
- season: 
- weather:
- lighting:

以下の例は古いプロンプトで生成しているので、不足している項目がある。

gpt-oss-20b の出力例

ユーザーの入力したプロンプトは「女の子がサイバーパンクシティのビルの屋上で立っていて、景色を眺めている。」。

プロンプトに「一般的ではないポーズとロケーションとシチュエーションを記述してください。」を追加している。

# style of painting
- anime

# camera
- camera position: low angle
- shot size: medium shot

# person
- garment: sleek, reflective cyberpunk jumpsuit with embedded LED strips forming abstract patterns; a translucent trench coat drapes over her shoulders.
- pose: standing on the rooftop railing, one hand resting on the metal rail, the other holding a small holo-map; head slightly tilted toward the horizon.
- hair length: long, flowing hair interwoven with faint neon strands that pulse softly in sync with city lights.
- facial expression: contemplative with a subtle, enigmatic smile, eyes reflecting distant neon signs.

# background
- location: outdoor
## left
- towering skyscrapers piercing a misty night sky, drones and floating advertisement billboards hovering above the rooftops.
## middle
- the girl herself, framed against the city skyline.
## right
- a massive holographic billboard projecting an abstract digital art piece that casts shifting colors onto her silhouette.

# settings
- time of day: night
- season: winter (frosted edges on the rooftop rail)
- weather: light mist and rain droplets suspended in the air, catching neon reflections.
- lighting: backlit by a myriad of neon signs; subtle rim lighting highlights her outline against the darkness.
Gemini 3 高速モードの出力例

ユーザーの入力したプロンプトは「女の子が都会の屋外で座っている。」。

# style of painting
- anime

# person
- garment: casual wear (jeans, hoodie)
- foot: shoes (white sneakers)
- pose: sitting on a bench, looking at her phone
- hair length: medium
- facial expression: calm, slightly focused

# background
- location: outdoor
## left
- skyscraper
## middle
- city park bench, street view
## right
- street lamp, small cafe in the distance

# settings
- time of day: late afternoon
- season: autumn
- lighting: soft, natural light, slight golden hour glow

Z Image Engineer

プロンプトエンハンサー用の、ユーザーが作成したモデル。データソースは Gemini。

BennyDaBall/qwen3-4b-Z-Image-Engineer

Z-Image Engineer - an LLM that specializes in z-image prompting. Anyone using this, any suggestions for prompting? Or other models to try out?

顔文字

Z-IMAGE-TRUBO-NEW-FEATURE DISCOVERED

認識するキャラリスト

英語では認識しないが中国語だと認識することもある(フリーレンや五条悟)。

ガチャ

ランダムな文字を入れる方法は少しランダム性を加える。最初の1ステップを dpmpp_2m_sde サンプラーで空のプロンプトでデノイズする方法は、ステップ数を減らすとランダム性が大きくなる。

Unlock diversity of Z-image-Turbo, comparison

以下のようなカスタムサンプラーを組む方法が紹介されている。ただし以下のワークフローは画質が悪いので、この後に通常のワークフローで i2i をする必要がある。

ワークフロー

ワークフロー

上記のワークフローの ModelSamplingAuraFlow の数値を増やすとランダム性が増えるが画質が悪化する。BasicScheduler と SplitSigams とでステップ数を制御する。

このワークフローは

  1. ModelSamplingAuraFlow でタイムステップをノイズが増える方向にずらす
  2. ずらしたタイムステップのノイズが多い最初の5個を捨てる

これによりノイズを残しつつデノイズする。なので画質が悪い(残留ノイズがある)かわりに、ノイズのランダム性を取り込むことができる。

SplitSigmas は Automatic1111 の Prompt Editing を実装するのに使える。SplitSigmas は途中でモデルを変更可能かつ多段階分割可能なので、より柔軟な制御が可能。

解像度リスト

うまく描けないときは以下を試してみる。

総ピクセル数9:162:33:44:5
1MP768 * 1344832 * 1280896 * 1152896 * 1152
1.5MP960 * 16641024 * 15361088 * 14721152 * 1408
2MP1088 * 19201152 * 17921280 * 16641280 * 1600
3MP1344 * 23681472 * 21761536 * 20481600 * 1984
4MP1536 * 27521664 * 24961792 * 23681856 * 2304
5MP1728 * 30721856 * 28161984 * 26242048 * 2560
6MP1856 * 33282048 * 30722176 * 28802240 * 2816
7MP2048 * 35842240 * 33282368 * 31362432 * 3008
8MP2176 * 38402368 * 35202496 * 33282560 * 3264
9MP2304 * 40962496 * 37762688 * 35202752 * 3456
10MP2432 * 42882624 * 39682816 * 37122880 * 3648

アップスケーラー

SeedVR2 が評判がいい。公式は 32bit でファイルサイズが大きいので fp8 の numz/SeedVR2_comfyUI などを使う。

アップスケーラーが良すぎて、なんか違法な気がする

サンプラーとスケジューラー

Perfect Z Image Settings: Ranking 14 Samplers & 10 Schedulers でサンプラーとスケジューラーの比較をしているがどれも変わらない。

ディティールを増やしたければ以下の方法がある

作例

作例は以下のリンクを参照。


Z Image Turbo

Z Image Turbo

Qwen Image Edit 2509

Qwen Image Edit 2509

There are three girls in a room.

The girl on the left has short red hair and blue eyes. She is sitting on a stool holding a card with the word "左" written on it.

The girl in the middle has long silver hair and red eyes. She is standing and holding a card with the word "中" written on it in both hands.

The girl on the right has medium brown hair and green eyes. She is sitting on a stool and holding a card with the word "右" written on it.

There are potted plants and a kitchen in the background.

Anime style.

プロンプトの指示をすべて満たし、画質もよく、手が溶けておらず、背景も破綻していない。軽量モデルの中ではダントツの基本性能を持っている。

以下のような、markdown + タグの羅列も機能する。

There are three girls in a room.

# person
There are three girls.
- left: short red hair, blue eyes, sitting on a stool, holding a card with the word "左" written on it.
- middle: long silver hair, red eyes, standing, holding a card with the word "中" written on it in both hands.
- right: medium brown hair, green eyes, sitting on a stool, holding a card with the word "右" written on it.

# background
potted plants, a kitchen.

# style
Anime style.
Z Image Turbo

Z Image Turbo

Qwen Image Edit 2509

Qwen Image Edit 2509

There is a piece of paper with "あいうえおアイウエオ
かきくけこカキクケコ
さしすせそサシスセソ
たちつてとタチツテト
なにぬねのナニヌネノ
はひふへほハヒフヘホ
まみむめもマミムメモ
やゆよヤユヨ
らりるれろラリルレロ
わをんワヲン" written on it.

中国語にある漢字は描けるが、ひらがな・片仮名が描けない。

Anime style.

# person

芙莉莲's upper body. 
- appearance: silver hair and green eyes
- facial expression: closing one eye with slight smile
- objects: She is holding a white board with handwritten "It works!"
- garment: a coat with a red jewelry on her neck button

# background

The background features a snowy night with bokeh.
Z Image Turbo

Z Image Turbo

Qwen Image Edit 2509

Qwen Image Edit 2509

Anime style.

There are two girls in a room. One is standing, the other is sitting on a stool. The soft lighting creates a humorous atmosphere.

On the left, Kotonoha Aoi, with long blue hair, is standing. She has her arms behind her back, wearing a white dress and knee boots. She is standing.

On the right, Kotonoha Akane, with long red hair, is sitting on a stool with her legs spread and leaning forward. She has her arms stretched out in front of her and her hands on the stool. She is wearing a black dress and knee boots.

In the background are a window, curtains, a table, and a potted plant.

画像としての品質は Qwen Image の方が良いが、プロンプトに忠実なのは Z Image Turbo(legs spread と 'a' potted plant が反映されている)。

構造化版

# person
There are two girls in a room.
- left girl: kotonoha aoi, log blue hair, standing, arms behind back, white dress, knee boots, standing
- right girl: kotonoha akane, long red hair, sitting on a stool, spread legs, leaning forward, arms stretched out in front of her, hands on the stool, black dress, knee boots

# background
There is a window, curtains, a table and a potted plant.

# style
Anime style. The soft lighting creates a humorous atmosphere.
Z Image Turbo

Z Image Turbo

Qwen Image Q3_K_M

Qwen Image Q3_K_M

The illustration of a chibi girl sitting in a chair eating a piece of pizza. She is saying "This is fine!" in a speech bubble. There is a table and a window in the indoor room.
anime style young woman, slender body, long white hair with bangs and an elaborate frilly headpiece, fair skin, large red eyes, wearing a black and white frilly gothic lolita dress with intricate ruffled details, posing with hands together near her face, adorned with a silver cross earring and a silver ring, against a plain light background, mood is solemn and elegant, soft lighting highlighting the delicate textures of the frills and hair, close-up shot focusing on the character's detailed features and accessories
日本語文字

日本語文字

A young girl with long, black hair and bangs, wearing delicate silver earrings and a thin necklace, looks calmly and slightly shyly at the camera.

Highly detailed digital pained illustration, amine style.

# ID card

She holds up an ID card with her right hand. The card is the same size as a credit card. The ID card has following information:
- her portrait that she wears a black top and has a serious expression
- name "極楽夢衣"
- date of birth "2010年04月23日"
- address "東京都千代田区永田町1丁目7−1"
- ID number "765-8766196"

# background

There is a red wooden furniture and white walls faintly visible in an indoors.

# style

Highly detailed digital pained illustration, amine style.
中国語文字

中国語文字

A young girl with long, black hair and bangs, wearing delicate silver earrings and a thin necklace, looks calmly and slightly shyly at the camera.

Highly detailed digital pained illustration, amine style.

# ID card

She holds up an ID card with her right hand. The card is the same size as a credit card. The ID card has following information:
- her portrait that she wears a black top and has a serious expression
- name "极乐梦衣"
- date of birth "2010年04月23日"
- address "东京都千代田区永田町1-7-1"
- ID number "765-8766196"

# background

There is a red wooden furniture and white walls faintly visible in an indoors.

# style

Highly detailed digital pained illustration, amine style.
A illustration of close-up profile of a young woman with ethereal, almost otherworldly qualities. The subject has pale, flawless skin and striking yellow eyes that are slightly downcast, giving her an introspective appearance. Her long, wavy hair is a silver-gray color, flowing dynamically and appearing almost as if its caught in a gentle breeze, adding a sense of movement to the image. She has full, red lips that contrast sharply with her pale complexion. She is wearing a white garment with a red collar, which is slightly visible at the bottom of the frame.   

# background

The background is a dark, gradient gray, which helps to highlight the subjects luminous features and hair.

# lighting

The lighting is soft and diffused, casting gentle shadows that enhance the three-dimensionality of her face and hair. The overall mood of the image is serene and mystical, with a focus on the delicate and ethereal qualities of the subject.

# style

This is a digital painting in a realistic, semi-abstract style. Use smooth, blended brushstrokes to create a sense of realism while maintaining a slightly fantastical atmosphere.
A split-screen composite portrait of a full body view of a single Chinese woman with opening mouth, front view. The image is divided vertically down the exact center of her face. The left half is a black and white rough anime pencil sketch style, the right half is digital painting. The facial features align perfectly across the center line to form one continuous body. Seamless transition.

Z-Image: A bit of prompt engineering (prompt included)

The game screen capture style.

The Genshin Impact character, Hu Tao(胡桃), is depicted in a lively pose on the right side of the image. She wears a black outfit with red and white accents on the sleeves and skirt lining. Her long, dark brown hair flows in the wind and she wears a distinctive flower-adorned hat. Her right hand is near her face, and in her left she holds a glowing red polearm. A distinctive white ghost floats at her feet.

The background is a rich autumn landscape, with shrubs and trees colored in orange and red, creating depth. The ground is covered with mossy rocks and lush vegetation, and is decorated with a small lantern and plants with pink flowers. A warm light shines throughout, highlighting the character.
This illustration combines pen and ink drawing with watercolor techniques, featuring highly saturated colors.

A girl sits on a chair, smiling as she holds chopsticks.

A vibrant, an abundant tuna and salmon sushi and sashimi platter neatly arranged within a simple, light brown cardboard takeaway box. The subtle texture of the box's matte surface provides a minimalist backdrop, allowing the vibrant colors of the sushi to truly pop. The left side features a meticulously arranged, full tuna and salmon sashimi rose with delicate, orange-pink layers, accompanied by two simple, thick slices of salmon. To the right, a delightful array of individual salmon-wrapped rice balls are generously topped with swirls of creamy white cream cheese and garnished with bright green, finely chopped scallions or chives. Below these, two organized rows of inside-out salmon and cream cheese sushi rolls (uramaki) showcase their fluffy white rice exteriors, heavily speckled with contrasting black sesame seeds, revealing the rich salmon filling in their cleanly cut cross-sections. The scene is illuminated by soft, diffused natural light, creating gentle highlights on the creamy fillings and the glossy salmon, enhancing the appetizing appeal without harsh shadows. The edges of the box are slightly visible, grounding the scene and emphasizing its 'to-go' nature.

The box is placed on a table. There is a soy source in a saucer on the left side of the box.

# Core Feature
- Character Type: A cute female figure in a chibi (Q-style) aesthetic.
- Facial Features: Large red eyes, a small nose and mouth, long, wavy golden hair, and bangs.
- Headwear: A large bow on her head, made of white, gray, and dark blue striped fabric. A blue cross and two red lines are affixed to her forehead.
- Pose: Left hand waving, right hand making a "V" sign.

# Clothing Details
- Overall: Wears a white, multi-layered ruffled dress.
- Neckline and Cuffs: Delicate white lace trim on the neckline and cuffs.
- Chest Accessory: A blue and white striped bow tied at the chest, with a red round gemstone in the center.
- Pendant: Two dark blue ribbons hang from the bow, each ending in a gold cross pendant.
- Other: Gold buttons adorn the dress.

# Background Elements
There is a charactere in the blurry background.
- Environment: Another character is faintly visible in the background. This character has golden hair and black demon/bat-wing-like horns, and wears black clothing.

# Style and Texture
- Style: Japanese anime style, emphasizing cuteness and refinement.
- Materials: The texture of the clothing fabric, the delicacy of the lace, and the luster of the metallic pendants all need to be depicted.
Atmospheric anime illustration of a beautiful young woman with long flowing black hair standing on an old school staircase, looking back over her shoulder directly at the viewer with an enigmatic expression. Character wears a classic school uniform consisting of a white blouse with navy blue tie, dark pleated skirt, black knee-high socks and leather shoes. Dramatic cinematic lighting from above creates strong contrast between illuminated figure and shadowy staircase surroundings, casting sharp shadows across the tile walls. Environment features worn ceramic tiles in checkerboard pattern on walls and steps, wrought iron handrail with peeling paint, and a vintage directional sign mounted on the wall showing Japanese characters for "出口".  Thick-coated 3D texture rendering with visible brushstrokes creates tangible surface quality on tiles, fabric and metal. Cool color palette dominated by deep blues and grays with strategic highlights in warm tones on skin and hair. Highly detailed illustration style blending anime aesthetics with painterly realism, emphasizing the visual impact of light and shadow interplay. Mysterious, contemplative mood with slight gothic undertones, professional digital painting with exceptional material rendering.
Z Image Turbo

Z Image Turbo

Qwen Image Edit 2509

Qwen Image Edit 2509

A girl holding a M4 assault rifle in her right hand, is stainding in the apocalypse city. She is looking at side. She is wearing a hooded jacket, a skirt and boots with a backpack.

# background

The background is a dark, gradient snowing gray.

Draw following objects:
- disfigured road
- disfigured buildings
- many broken cars, tanks
- debris and rubble
- a broken traffic light

# style

This is a digital painting in an anime but semi-realistic style. 

Dramatic cinematic lighting and mysterious, contemplative mood.

Draw the M4 assault rifle in detail.

Z Image Turbo は手と銃が崩れやすく 100 回程度ガチャをした。こういうのは Nano Banana Pro や Edit モデルで修正した方が早い。

Qwen Image Edit は手が崩れにくかった。プロンプトの忠実性が高いのは Qwen Image Edit だが、画質が良くディティールが豊富なのは Z Image Turbo。

# composition

## right
A girl with long flowing black hair standing on the right side of the table. The girl wears a classic school uniform consisting of a white blouse with navy blue tie, dark pleated skirt, black knee-high socks.

## middle
There is a round mini table on the center of the image. There is a empty coffee cup on the table. 

## left
There is a bookshelf and piled books in the one.

# background

In the living room, there are a window, curtains, bookshelfs, piled books, a table, and a potted plant.

# style

Atmospheric anime illustration. The soft lighting creates a humorous atmosphere.

「画面の右側に人がいる」のようなプロンプトは無視され、画面中央に人が配置される。構図を具体的に指定する必要がある。

Z Image Turbo

Z Image Turbo

A young woman is standing on a subway platform.

She is short black hair, wearing a light gray cap, a light colored cropped top and short black pants.

She is holding an iPhone in her left hand.

# background

There are signs, Braille blocks and blurred figures, with a sense of urban transit in the subway station. There is a sign written "出口" on it.

# style

japanese manga, line art, pen art, black and white, halftone

物を持たせると手が怪しい。点字ブロックは知っているが描くのはうまくはない。

公平な比較ではないが、Qwen Image Edit 2509 Lightning LoRA 4step のテキストエンコーダーに虎ノ門三丁目方面改札を示す矢印(虎ノ門ヒルズ駅)の無料の写真素材を入力して同じプロンプトで生成したものが以下になる。

Qwen Image Edit 2509 Lightning LoRA 4step<br/>参照画像付き

Qwen Image Edit 2509 Lightning LoRA 4step
参照画像付き


広告
広告

カテゴリ